标签【Heterogeneous Parallel Programming】

1.2CPU和GPU的设计区别

CPU和GPU之所以大不相同，是由于其设计目标的不同，它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得C ...

5.1 CUDA atomic原子操作

和许多多线程并行问题一样，CUDA也存在互斥访问的问题，即当一个线程改变变量Ｘ,而另外一个线程在读取变量Ｘ的值，执行原子操作类似于有一个自旋锁，只有等Ｘ的变量在改变完成之后，才能执行读操作，这样可以保 ...

2.3CUDA矩阵乘法

CPU 矩阵乘法能相乘的两个矩阵，必须满足一个矩阵的行数和第二个矩阵的列数相同. A(N*P) * B(P*M) = C(N*M).　其中P是行数，N是列数，　从宽高的角度来说，即 A的宽度和 ...

6.1 CUDA: pinned memory固定存储

CPU和GPU内存交互在CUDA编程中,内存拷贝是非常费时的一个动作. 从上图我们可以看出:1. CPU和GPU之间的总线bus是PCIe,是双向传输的. 2. CPU和GPU之间的数据拷 ...

4.2 CUDA Reduction 一步一步优化

Reduction并行分析: 每个线程是基于一个树状的访问模型，从上至下，上一层读取数据相加得到下一层的数据．不停的迭代，直到访问完所有的数据．利用这么多的线程块(thread block) ...

4.4 CUDA prefix sum一步一步优化

1. Prefix Sum 前缀求和由一个二元操作符和一个输入向量组成，虽然名字叫求和，但操作符不一定是加法。先解释一下，以加法为例：第一行是输入，第二行是对应的输出。可以看到，Output ...

2.2CUDA-Memory(存储)和bank-conflict

在CUDA基本概念介绍有简单介绍CUDA memory。这里详细介绍：每一个线程拥有自己的私有存储器，每一个线程块拥有一块共享存储器(Shared memory)；最后，grid中所有的线程都可以 ...

6.2 CUDA streams

stream是什么 nivdia给出的解释是:A sequence of operations that execute in issue-order on the GPU. 可以理解成在GPU上 ...

5.2 CUDA Histogram直方图

什么是Histogramming Histogramming是一种从大的数据集中提取典型特征和模式的方式. 在统计学中，直方图（英语：Histogram）是一种对数据分布情况的图形表示，是一种二维 ...

全局存储带宽(DRAM) 全局内存是动态随机访问的方式访问内存．我们希望访问DRAM的时候非常快，实际情况是DRAM中出来的数据非常非常慢，这就好比，理想状态是泄洪，水倾巢而出，气势宏伟，实际取水却 ...